查看原文
其他

ScRNA-Seq(下)|单细胞数据如何降维?筛选?鉴定?拟时序分析?

王亮 伯豪生物 2022-08-30


上期为大家介绍单细胞的分离,单细胞测序技术的比较,单细胞数据的比对和定量,以及单细胞数据的质控和归一化。


点击上期回顾

本期内容会对

【数据降维】

【特征筛选】

【细胞亚群鉴定】

【差异分析细胞谱系】

【拟时序分析】

【可变剪切】等分析进行介绍。


数据降维和特征筛选



大家都知道scRNA-seq数据具有高维性,涉及数千个基因以及大量细胞。降维和特征选择是处理高维数据的两种主要策略。降维方法通常通过最优地保留原始数据的一些关键属性来将数据投影到更低的维度空间中。PCA是一种线性降维算法,它假设数据近似正态分布。t-分布随机近邻嵌入(t-SNE)是一种主要用于高维数据可视化的非线性方法。PCA和t-SNE在不同的scRNA-seq研究中被广泛应用,将被识别的细胞可视化成不同的亚群。值得注意的是,两者也都具有各自的缺点,PCA不能有效地表示scRNA-seq数据的复杂结构,而t-SNE具有计算时间慢、多次处理同一数据集的嵌入方式不同的局限性。最近,为了减少scRNA-seq数据的维度,研究人员开发了UMAP (uniform and projection)和scvis。比较不同的方法发现, UMAP可以提供最快的运行时间、最高的再现性和最有意义的细胞簇。

母胎界面细胞类型的鉴定(UMAP)


特征选择可以删除无效基因,并识别最相关的特征(基因),以减少下游分析中使用的维度数量。通过执行特征选择来减少基因数量可以在很大程度上加速scRNA-seq数据的计算。差异表达基因的筛选在 bulk RNA-seq实验中是一种广泛应用的特征选择方法,但由于调用scRNA-seq数据需要预定的或同构的子总体信息,因此很难应用于scRNA-seq数据中。针对scRNA-seq数据设计的无监督特征选择算法可分为以下几组:

(1)基于高度可变基因(HVG)的算法

(2)基于spike-in算法

(3)基于dropout算法


HVG方法依赖于一种假设,即细胞间表达高度可变的基因是由生物学效应而非技术噪音造成的。Seurat软件中用的FindVariableGenes (FVG) 就是HVG方法。基于spike-in的方法可以识别出那些表达量显著高于spike-in的基因。基于Dropout的方法利用scRNAseq数据的Dropout分布进行特征选择。

细胞亚群识别


scRNA-seq可以对特定条件下组织内细胞亚群进行识别。而细胞亚群的鉴定必须在对scRNAseq数据进行质量控制后进行,否则就可能会引入人为因素。根据是否基于先验信息,细胞聚类方法主要可以分为两类。如果使用一组已知标记进行聚类,则这些方法是基于先验信息的。另外,非监督聚类方法也可用于用scRNA-seq数据重新识别细胞群。

无监督聚类算法主要可以分为以下几种:

(1) k-means;

(2)层次聚类;

(3)density-based聚类;

(4)graph-based聚类。


K-means是一种快速的方法,它将单元分配到最近的集群中心,并且它需要预先确定的细胞亚群数量。层次聚类可以确定聚类之间的关系,但是它的工作速度通常比k-means慢。density-based的聚类方法需要大量的样本来精确计算密度,通常假设所有的聚类具有相同的密度。graph-based聚类可以看作是基于密度的聚类的一种扩展,它可以应用于数百万个细胞。目前已经开发了许多针对于scRNA-seq数据的聚类方法,如单细胞共识集群SC3(single-cell consensus clustering)和Seurat的聚类方法,可促进细胞的识别亚种群(图1)。SC3是一种无监督的方法,其结合了多个聚类方法,具有高精度和鲁棒性。Seurat主要基于共享近邻(shared nearest neighbor, SNN)聚类算法来识别细胞簇。一旦确定了亚群,通常通过差异表达分析或方差分析(ANOVA)来识别最能区分不同亚群的标记。


SC3可以帮助确定亚克隆组成的额外证据





差异表达分析


差异表达分析对于发现不同亚群或细胞群间的差异表达基因(DEGs)非常有用。DEGs对于解释两者之间的生物学差异至关重要。scRNA-seq数据的技术可变性、高噪声和庞大的样本给差异表达分析带来了挑战。此外,在一个细胞群中可能存在多种细胞状态,导致细胞中基因表达的多样性。最初为bulk RNA-seq数据开发的工具已经在许多单细胞研究中用于识别DEGs,但是这些方法对scRNA-seq数据的适用性仍然不清楚。近年来,人们提出了一些基于scRNA-seq数据进行差异表达分析的具体方法,如MAST、SCDE、DEsingle、Census和BCseq。MAST基于线性模型拟合和似然比检验。SCDE是一种贝叶斯方法,使用低强度泊松过程来计算dropouts。DEsingle使用零膨胀负二项模型来估计损失和实际零。BCseq以数据自适应的方式降低技术噪音。研究人员最近评估了36种差异表达方法(包括为scRNAseq和bulk RNA-seq数据设计的工具),发现这些方法在DEGs的特征和数量上存在显著差异。



细胞谱系和伪时间重建分析


许多生物系统中的细胞表现出连续的状态谱,并涉及不同细胞状态之间的转换。通过scRNA-seq数据重建细胞轨迹和伪时间分析,可以对部分细胞内的这种动态过程进行计算建模。伪时间是一个系统中沿着一个连续发展过程的轨迹的细胞排序,它可以在轨迹的开始、中间和结束状态识别细胞类型。除了揭示细胞间的基因表达动态外,单细胞轨迹推断还有助于识别触发状态转换的因素。目前已经提出了许多用于轨迹推断的工具,如Monocle、Waterfall、Wishbone、TSCAN、Monocle2、Slingshot和CellRouter。由此产生的轨迹拓扑可以是线性的、分叉的或树/图结构。Monocle构建了一个最小生成树(MST),用于细胞基于独立成分分析(ICA)搜索最长的主链。Monocle2结合了非监督数据驱动方法和反向图嵌入(RGE),这比Monocle更健壮、更快。Slingshot是一种基于集群的方法,用于识别具有不同监督级别的多个轨迹。CellRouter利用流网络来识别单元状态转换轨迹。最近,Saelens等人评估了一些单细胞轨迹推断方法(不包括CellRouter),发现Slingshot、TSCAN和Monocle2优于其他方法。



可变剪接和RNA编辑分析


大多数已发表的单细胞研究主要探讨的是在基因水平上单个细胞之间的转录组变异。在真核生物的基因组中,可变剪接(AS)可大大增加蛋白质编码RNA和非编码RNA的多样性包括。AS通常有五种形式,包括外显子跳跃 (exon-skip),互斥外显子(mutually exclusive exons),选择性供体位点(alternative donor site),选择性受体位点(alternative acceptor site),内含子保留(intron retention)。在哺乳动物中,基于bulk RNAseq数据,大量的研究发现90%的人类基因可以发生AS。但是bulk RNA-seq数据揭示的结果只能反映出在种群水平上,许多细胞的平均模式。由于高噪音(例如,dropouts和不均匀的转录本覆盖)和低覆盖,最初为bulk RNAseq数据开发的可变剪接量化方法不适用于scRNA-seq数据。由于表达动态是细胞种群的一个关键方面,因此有必要在单细胞水平研究AS。到目前为止,只有少数几个AS分析方法可以适用于scRNA-seq数据,例如SingleSplice, Census, BRIE和Expedition (表6). SingleSplice使用统计模型来检测发生同型异构体用法的基因,但未对全长转录本的表达水平进行评估。Census通过基于狄利克雷多项分布的线性模型来对每一个基因的转录本计数。BRIE通过贝叶斯层次模型用差异转录本的定量。Expedition是一个软件合集,包括下面的3个软件outrigger(一种用于检测单细胞RNA-seq的从头剪接图横向算法),anchor(一个贝叶斯方法分配剪接模式)和bonvoyage(使用非负矩阵分解来可视化模态变化)需要分别安装分别使用来识别,分配剪接方式和可视化方式的变化。

另一方面,RNA编辑是一个重要的转录后调控事件,它会导致RNA分子的序列改变。类似地,RNA编辑主要使用bulk RNA-seq技术进行研究,但是很少在单细胞级别进行研究。目前,scRNA-seq的局限性很大程度上阻碍了RNA编辑的应用。因此,随着scRNA -seq技术和单细胞编辑检测算法的发展,探索单细胞间的RNA编辑动态将成为可能。值得注意的是,AS和RNA编辑主要适用于Smart-seq2和MATQ-seq等可以获得全长转录本的scRNA-seq技术,而不适合而不是3端scRNA-seq方法。


基因调控网络重建


基因调控网络构建已经在bulk RNA-seq研究中得到了广泛的应用,scRNA-seq也是如此。对于 bulk RNA-seq数据,通常使用加权基因共表达网络分析等工具从大量样本中构建网络(WGCNA)。它所基于的原理是,表达高度相关的基因可以被共同调控。从理论上讲,scRNA-seq细胞可以作为大块RNA-seq样品进行处理,类似的方法是可行的。

scRNA-seq数据的网络构建可以用来揭示有意义的基因相关性,并提供生物上重要的见解,而这些见解是bulk RNA-seq数据所不能揭示的。最近,研究人员开发了SCENIC,该软件基于scRNA-seq数据重建基因调控网络,结果显示,SCENIC可以很好的预测转录因子与靶标的相互作用。PIDC是另一个基于多元信息理论用来推断基因调控的软件。这样的网络推理工具很方便从单细胞转录组数据中识别表达调控网络,并提供关键的生物学见,有助于解研究基因之间的调控关系。

总结


在过去的10年里,研究人员在scRNA-seq领域取得了巨大的进步。scRNA-seq的发展与创新在很大程度上促进了单细胞转录组研究,使人们在细胞表达可变性和动力学方面有了深刻发现。此外,随着细胞条形码和微流体技术的出现,scRNA-seq的通量也有显著提高。此外,对于固定和冷冻样品,也出现了相应的scRNA-seq方法,这将极大地有益于研究高度异质性的临床样本。然而,目前scRNA-seq方法仍然有很高的dropout率,其中,低表达基因会被遗漏。此外,由于目前大多数的scRNA-seq方法主要是捕获polyA的RNA,可以同时捕获有polyA和无polyA−RNA的scRNA-seq技术(如MATQ-seq)可以对蛋白质编码和非编码基因表达动力学进行研究。

由于scRNA-seq数据的噪声比较高,因此数据的质控,排除那些低质量的细胞,以避免在数据解释时出现偏差。此外,批量效应校正(如果需要),样品之间归一化和推算也很重要。此外,细胞大小和细胞周期状态等因素也可能起作用对于某些类型的细胞来说,这种影响也需要考虑。尽管目前已经出现了很多scRNA-seq数据的分析方法,有效处理技术噪音和表达变化仍然是必需的。此外,对 scRNA-seq数据进行AS和RNA编辑分析的方法也亟待开发,这样才能阐明单细胞的转录后调控机制。

总的来说,scRNA-seq及其相关的计算方法极大地促进了单细胞转录组学的发展。scRNA-seq技术的不断创新和生物信息学方法的不断进步,将极大地促进生物学和临床研究的发展,并为深入了解细胞的基因表达异质性和动态机制提供重要的理论依据。



推荐阅读

ScRNA-Seq(上)!

搞技术

促销 | 热门论文最新CP(单细胞测序+转录组测序)

搞事情

免费外泌体分离鉴定!

搞事情

免费样本处理!

搞事情


咨询电话:17702139967(微信同号)

联系邮箱:Market@shbio.com



服务科技创新  护航人类健康

▇ 扫码关注 伯豪生物

我知道你在看



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存